Deep Learning

2016-10-21

《Deep Learning》by LeCun&Bengio&Hinton

介绍

这是自然杂志上的一篇关于深度学习的论文，主要讲了深度学习如何替代传统的机器学习方法来实现人工智能的系统。

而文章的三个作者都是DL领域的鼻祖级人物。

有监督的学习

“浅层”的分类器在面对一个分辨图片中狼的种类的任务的时候，可能会因为狼在图片中的位置、姿势相近而导致分类错误。这也是为什么一个“浅层”的分类器需要提取好的特征来进行学习。

为了让分类器的性能更强，可以使用普通的非线性特征，如同核方法。但是泛化的特征，例如那些和高斯核方法一同出现的特征并不会让学习器在离训练样本很远的时候有很好的泛化能力。传统的方法是手工构造特征提取器，这就要求相当的工程技巧和特定域的专业知识。但是如果好的特征可以在一个普适的学习过程中被自动地学习到，那么这些都是可以避免的（大量的工程技巧和领域内的专业知识）。而这个正是深度学习的关键优势。

深度学习的每一层都会转换它的输入，使之更具选择性和不变性。带有多层非线形层的系统（一般有5到20的深度）就可以实现非常复杂的函数，同时对微小的细节保持敏感性，除此之外还会对大的无关的变量保持不敏感，比如背景、姿势、灯光和周围的物体。

在多层结构中运用反向传播算法来训练

现在最流行的非线形函数是rectified linear unit(ReLU)，简单来说就是个半波整流器$f(z)=max(z,0)$。在过去的几十年，神经网络还使用了$tanh(z)$或$\frac{1}{1+exp(-z)}$。但是ReLU在多层网络中学习的速度更快，允许训练一个深度有监督的网络而不需要无监督的预训练。

在90年代，神经网络和后向传播被机器学习社区所背叛，并且被计算机视觉和语音识别社区所忽略。那时候大家普遍认为使用很少的先验知识学习有用的、多阶段的、特征提取的方法是不可行的。特别是，简单的梯度下降法被认为会陷入到局部最小。

实际上，差劲的局部最小在大的网络工作的时候几乎不是个问题。同时，最近的许多理论和经验结果强有力地证明了局部最小总的来说不是一个严重的问题。

在2006年左右，对于深度前馈网络的兴趣又兴起了，主要是一组由Canadian Institute for Advanced Research(CIFAR)组织到一起的研究者。

当数据集比较小的时候，无监督的预训练是需要的。

卷积神经网络

ConvNets被设计用来处理那些数据的输入格式是多个数组的，比如一个由三个二维数据组成的图片。一维数据的有信号和序列，包括语言；二维的有图片和语音图谱；三维的有视频和立体图片。卷积网络后有四个关键点导致他的高性能：局部连接、共享权值、pooling以及多层结构。

www.deeplearningbook.org是一个深度学习教材的网站。

一个一维的卷积神经网被叫做时间延迟神经网，可以用于识别音素和简单词语。

用深度卷积神经网进行图像理解

自然语言处理

学习一个word vector来份不是表示每个单词，通过预测下一个词是什么。

循环神经网络

BP首先被介绍的时候，它最激动人心的应用是用来训练RNN网络。他可以保存一定的记忆，同时在此基础上可以修改成为LSTM，拥有一个更长久的记忆。

Blog

NLP